如何利用數據來適切的表達語言字句的,也就是所謂的字句的語意表示(Word Semantic Representation),是NLP最重要的工作。
指一個句子的語意可用文本所包含各種不同關鍵詞與頻率出現的多寡來表示,例如一個文本內包含了許多的資訊架構、資訊系統、ERP等等,這表示此文本的內涵與資訊管理非常相關。
1.獨熱編碼(One Hot Encoding)
所謂獨熱編碼是指利用個別單詞出現在文本中的位置,並比1、0來表示其位置的一種稀疏向量句表示方式,簡單來說就是以這篇文章中所有位置出現過的字詞來代表這篇文章的特徵。
2.詞出現頻率(Term Frequency, TF)
指統計每個詞再不同的文件出現的頻率,出現的頻率越高,則表示這個詞為此文件的重要內容與特徵。然而詞頻率法有幾個缺點
4.計算詞頻率學派的缺點
所謂詞向量(Word Vector)或稱詞嵌入(World Embedding)指一種以固定維度向量的方式,利用上下文關係的大小來表示一個詞本身所具有的語意特徵。以下為詞向量的幾個基本概念:
1.詞向量表示降維的表示方式:由於詞向量在one hot encoding的基礎上抽取,一篇有數十萬個詞的文本,不可能以所有出現過的單字的維度來表詞向量,因此需以降維的方式來抽取比這這些詞更高層次、更具區別力的隱藏特徵。例如要用[顏色、機械、行動]三個高層次的隱藏特徵來表示綠、紅、海浪、汽車與飛機的詞向量則
2.詞向量以固定的維數來表示:一般詞向量的維度都在數百到數千之間,例如GPT-3則有上萬個維度,常用的如300,義及對於每個詞我們都用300個參數來表達這個詞的特徵與涵義。
3.相同語意的詞向高維度下的空間距離相似:相同語意的詞,由於其上下文的相似度高,在高維度的語意空間內距離會相近。
1.Word2 Vector
簡單來說World2 Vector指一種利用三層網路的類神經網路,透過預測詞彙上下文的方式,來訓練詞向量的一種模式。訓練方式有以下兩種:
2.GloVe詞向量(Global Vectors for Word Representation)
指一種詞與詞的共線矩陣(Co-cooccurrence Matrix)為核心所計算出來的一種詞向量。
3.詞向量模式的比較
三者比較如下:
1.詞向量的優點
所謂句向量(Sentence Embedding),以句子為單位,以固定維數的向量,來訓練學習與表示,句子語法與語意的一種語言模型。
1.詞袋模式(BOW)家族
代表為TF-IDF模型,此模型用TF-IDF的計算來表達在一個句子的向量中,哪些詞的權重較高,而這些權重的加權總合,就是這個句子的意義與特徵此家族的句向量算法,簡單容易使用,但也具備了BOW演算法的先天缺點。
2.詞向量模式
以詞向量為基礎透過各種不同的轉換與加權平均來整成句向量。
3.句向量模式(Sentence to Vector)
以句為單位直接來學習訓練及抽取整個句子的向量,而非以詞的組合加權平均來表達,主要包含以下幾種:
4.語言模型
例如BERT,利用上下句彼此之間的共現關係大小來學習句向量。
參考資料
人工智慧-概念應用與管理 林東清 著